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一 种 面向 PDF 文本 内 容 审查 的 高 效 多 模式 匹配 算法 
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摘 要 : 多 模式 匹配 算法 是 网 络 入 侵 检测 和 内 容 过 滤 的 核心 算法 。 针 对 Wu-Manber 多 模式 匹配 算法 所 存在 的 匹配 效 
率 低 、 跳 转 距离 较 小 的 问题 ,结合 PDF 文本 内 容 的 编码 规则 ,提出 了 一 种 适用 于 中 文 PDF 文本 内 容 审查 的 Wu-Manber 
改进 算法 。 该 算法 使 用 布 隆 过 滤器 提取 模式 串 关 键 信息 ， 同 时 结合 双重 哈 希 和 PDF 文本 编码 规则 ,减少 了 无 谓 的 匹 
配 次 数 ， 加 大 了 跳 转 幅度 ， 从 而 提升 了 PDF 文本 的 匹配 性 能 。 实 验 结果 表明 ， 这 种 改进 算法 在 PDF 文本 审查 中 的 
匹配 速率 有 较 大 提升 ， 尤 其 当 最 短 模 式 串 较 长 且 模式 串 规模 较 大 时 速度 可 以 提升 一 倍 以 上 。 
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Efficient multi-pattern matching algorithm for PDF content search 


Liu Bangguo, Chen Qingchun, Lei Xianfu 
(Southwest Jiaotong University, School of Information Science & Technology, Chengdu 611756, China) 


Abstract: Multi-pattern matching plays an important role in network intrusion detection and content filtering. To solve the 
deficiency of Wu-Manber multi-pattern matching algorithm in terms of the achieved matching efficiency and jump distance, 
propose an improved Wu-Manber algorithm for Chinese PDF document content revciew on the basis of the coding formats 
of PDF document content. By employing the Bloom filter to extract the curcial information of the pattern string, and 
exploiting the double hash and PDF document encoding rules, it is shown that the proposed improved algorithm is able to 
reduce the number of unnecessary matches and increase the jump distance, thus improving the matching efficiency for the 
content retrieval of PDF document. The practical experimental results confirms the improved matching efficiency for PDF 
document. When the shortest mode string is long and the mode string size is large, the matching efficiency can be even 
doubled. 
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规则 ， 减 少 了 无 谓 的 匹配 次 数 ， 加 大 了 跳 转 幅度 ， 从 而 
了 PDF 文本 的 匹配 性 能 。 
多 模式 匹配 算法 用 于 在 文本 中 寻找 出 特定 模式 集中 所 有 
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随 着 互联 网 流量 激增 , 本 文 已 经 进入 信息 和 大 数据 时 代 ， 间接 对 象 构 成 ， ee PDF 文件 的 实际 内 容 ， 
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携 式 文档 格式 PDF (portable document format) 是 一 种 标签 命 ”形成 了 如 图 1 所 示 的 树 型 结构 ， 其 中 页 面 (page) 的 Contents 


令 式 的 文件 格式 ， 文 件 中 可 以 包含 超 链 接 、 表 格 、 文 字 、 图 属性 中 stream 与 endstream 之 间 的 数据 流 便 是 被 压缩 后 
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PDF 文档 来 保存 , 对 PDF 文件 的 文本 内 容 进行 解析 并 对 其 中 PDF 的 文本 内 容 以 十 六 进 制 形式 表示 , 位 于 stream 
的 敏感 内 容 进行 管控 成 为 一 个 愈 发 重要 的 课题 加。 尤其 当 模 ”操作 符 TJWTIj 的 前 面 ， 形 式 如 <6C2985F61A09>TJ， 其 编 
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率 ， 这 是 本 文 的 主要 研究 背景 和 出 发 点 。 码 。 此外, 不 同 的 PDF 文件 中 文 文本 的 CID 编码 各 不 相同 ， 
本 文 在 经 典 的 Wu-ManberIg 多 模式 匹配 算法 的 基础 上 ， 所 以 每 个 中 文 PDF 文件 存在 映射 关系 表 cMap， 用 于 储存 中 


结合 中 文 PDF 内 容 流 的 编码 规则 , 提出 了 一 种 面向 中 文 PDF ” 文 文本 的 Unicode 编码 数据 与 CID 编码 数据 的 对 应 关系 。 


文本 内 容 审查 的 Wu-Manber 改进 算法 ,该 算法 使 用 布 隆 过 滤 如 ，“ 模 式 ” 的 Unicode 编码 数据 为 6A215FOF， 在 某 
器 提取 模式 串 关键 信息 , 同时 结合 双重 哈 希 和 PDF 文本 编码 文件 的 间接 对 象 中 对 应 的 CID 编码 数据 为 <1IF4E143C> 
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PDF 文本 内 容 的 多 模式 匹配 ， 尤 其 当 模 式 集合 较 大 时 的 研究 
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存储 在 位 图 中 ， 从 而 用 位 图 来 取代 状态 转移 表 从 而 减少 内 存 ，” 模 很 大 时 的 PDF 文本 匹配 的 需求 。 本 文 在 3.1 节 中 介绍 了 
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最 短 模式 串 长 度 较 小 或 者 模式 串 集 合 规模 过 大 时 匹配 速度 也 Wu-Manber 算法 的 符号 定义 ， 如 表 1 所 示 。 
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b) HASH 表 。 HASH 表 用 于 存储 每 个 模式 串 前 m 个 字符 ”P={4e0d53ef601d8bae,59994e0d53ef8a00,4fe1606f65f64ee3} ， 

中 最 右 端 长 度 为 B 的 字符 块 的 哈 希 值 ,此 处 称 为 后 缀 哈 希 值 。 ”根据 如 下 公式 (2) 计 算 字 符 块 大 小 B 的 值 : 

拥有 相同 后 组 哈 希 值 的 字符 块 被 放 入 同一 个 链表 中 存储 。 B=[4*logz(2*m*n)] 0) 
c) PREFIX 表 。PREFIX 表 用 于 存储 每 个 模式 串 前 m 个 


字符 中 最 左 端 长 度 为 B 的 字符 块 的 哈 希 值 ， 此 处 称 为 前 级 哈 其 中 : 三 是 字符 集 的 大 小 ， 是 模式 串 的 个 数 。 取 字符 块 大 小 
希 值 。 B=8， 则 根据 该 模式 串 集合 构造 的 SHIFT 表 ， 如 表 2 所 示 。 
3.1.2 扫描 阶段 可 以 看 出 ， 每 个 字符 块 的 跳 转 值 都 是 4 的 倍数 ， 因 此 加 大 了 
习 描 阶段 主要 是 利用 之 前 构造 好 的 三 张 哈 希 表 ， 从 前 到 跳 转 的 幅度 。 
后 地 扫描 文本 T， 并 不 断 检 测 是 否 匹 配 到 模式 串 ， 直 到 扫 挫 表 2 SHIFT 表 键 值 对 映射 关系 
到 文本 末尾 。 具 体 过 程 如 下 : Table 2 Key-value pair mapping of SHIFT table 
a) 在 文本 T 中 ， 计 算 当 前 匹配 窗口 中 最 右 端 长 度 为 B 字符 块 跳 转 值 
的 字符 块 的 哈 希 值 ， 记 作 h。 4e0d53ef 4 
b) 查看 SHIFT[h] 的 值 ， 若 大 于 0 则 匹配 窗口 按照 53ef601d 4 
SHIFT[h] 的 值 向 右 移 动 ， 执 行 步 又 a); 若 等 于 0 则 执行 步 又 601d8bae 0 
c)。 59994e0d 8 
c) 计算 当前 匹配 窗口 的 最 左 端 长 度 为 B 的 字符 块 的 哈 53ef8a00 0 
希 值 ， 记 做 pre_hash。 4a1606f6 8 
d) 将 HASH[h] 所 在 链表 的 全 部 模式 串 ， 逐 个 计算 Obf65f64 4 
PREFIX[h] 的 值 ， 判 断 是 否 等 于 pre_hash。 5f644ee3 0 
e) 若 不 等 于 则 跳 过 ， 回 到 步 又 d)。 3.3 双重 哈 希 跳 转 
人 若 等 于 ， 则 对 该 模式 串 进 行 逐 字符 地 精确 匹配 。 Wu-Manber 算法 中 , 将 匹配 窗口 的 最 右 端 大 小 为 了 B 的 字 
外 让 该 模式 串 从 当前 匹配 窗口 的 最 左 端 开始 从 前 到 后 。 符 块 命名 为 H， 则 当 SHIFT[H]=0 时 会 检验 PREFIX 表 之 后 


地 精确 匹配 。HASH[h] 所 在 链表 全 部 模式 串 都 校 验 完成 后 ， ”进行 精确 校 验 ， 结 束 后 匹配 窗口 仅 向 右 滑动 1 个 距离 。 当 文 


将 匹配 窗口 向 右 移动 1 个 距离 ， 执 行 步 又 a)。 本 串 规模 较 大 时 ， 精 确 校 验 次 数 很 多 而 滑动 距离 只 有 1 会 导 
3.1.3 Wu-Manber 算法 的 缺点 致 算法 的 匹配 效率 不 高 。 
当 将 Wu-Manber 算法 应 用 于 模式 串 规模 较 大 的 PDF 文 为 此 ， 本 文 新 增 了 一 张 JUMP 哈 希 表 ， 它 的 键 与 HASH 
本 内 容 审 查 时 匹配 效率 不 佳 ， 主 要 有 两 方面 的 原因 ， 详 细 立 。” 表 相 同 ， 而 值 表示 精确 匹配 后 的 精确 跳 转 值 ， 当 前 验证 的 字 
nT: 符 块 HH 没有 出 现在 其 他 模式 串 的 匹配 窗口 时 ， 
a) 跳 转 距离 小 ， 哈 希 冲突 大 。 一 方面 ,经典 Wu-Manber ”JUMP[H]=m-B+4; 当前 验证 的 字符 块 H 只 在 其 他 模式 串 的 
算法 中 ,字符 块 B 的 取 值 一 般 为 2 或 3, 在 PDF 中 文 文本 的 “匹配 窗口 最 左 端 出 现时 ，JUMP[H=m-B， 其 余 情况 下 


和 
内 容 检索 中 ， 一 个 汉字 会 对 应 4 个 字符 ， 当 最 短 模式 串 是 4 JUMP[H]=4。 因 此 ， 在 匹配 阶段 结束 精确 校 验 后 ， 跳 转 值 根 
个 汉字 时 ， 转 换 编码 后 m 是 16， 此 时 B 的 值 若 为 2 将 会 产 。 据 JUMP[H] 得 到 , 这 样 将 匹配 阶段 的 无 谓 时 间 消 耗 转移 到 预 
生 大 量 的 哈 希 冲突 而 造成 校 验 成 功率 下 降 ,减缓 了 匹配 进程 ， ”处 理 阶 段 ， 加 快 了 匹配 性 能 。 


T 


另 一 方面 ，Wu-Manber 算法 中 SHIFT 表 的 最 大 跳 转 值 为 ” 3.4 使 用 布 隆 过 滤器 减少 无 谓 匹 配 

m-B+1， 且 在 精确 校 验 后 跳 转 值 为 1， 在 PDF 文本 匹配 中 该 布 隆 过 滤器 (Bloom filter) 是 由 Burton Bloom07 在 1970 年 

跳 转 值 明显 可 以 进行 增加 且 不 会 出 现 匹 配 遗 漏 。 提出 的 一 种 高 效 的 随机 数据 存储 结构 ， 它 用 位 图 简洁 地 表示 
b) 精确 检验 耗 时 严重 。Wu-Manber 算法 在 匹配 过 程 中 ， 个 集合 ， 并 且 快 速 地 判断 一 个 元 素 是 否 属于 该 集合 。 布 隆 

当 SHIFT 表 的 跳 转 值 为 0 时 表明 可 能 匹配 到 了 模式 串 。 此 时 ” 过 滤器 是 基于 多 哈 希 函数 映射 压缩 参数 空间 的 数据 结构 ， 将 


就 需要 进行 精确 校 验 来 判断 是 否 匹 配 成 功 ， 而 这 个 过 程 需 要 kk 个 哈 希 函数 运算 后 的 值 映 射 到 位 图 中 ， 空 间 和 时 间 效 率 都 


逐一 地 遍历 对 应 HASH 表 映 射 的 链表 中 的 全 部 模式 串 。 由 了 很 高 bl 。 
中 文 PDF 文本 采用 CID 编码 格式 ， 使 得 模式 串 的 长 度 较 长 由 于 PDF 中文 文 本 的 编码 格式 , 即 一 个 汉字 带 有 四 个 字 
相同 前 缀 出 现 的 比例 较 大 ， 相 同 前 级 的 冲突 链 很 长 ， 导 致 。” 符 的 信息 ， 在 匹配 阶段 进入 精确 匹配 但 是 没有 匹配 到 模式 串 
在 精确 校 验 时 遍历 较 多 的 模式 串 而 造成 CPU 消耗 很 大 ,匹配 。” 的 情况 很 多 ， 这 样 造成 精确 匹配 的 成 功率 较 低 。 为 此 ， 本 文 
效率 低下 。 提出 使 用 布 隆 过 滤器 来 避免 不 需要 进行 精确 匹配 的 情况 ， 从 
3.2 调整 SHIFT 表 跳 转 值 而 加 速 匹 配 。 首 先 ， 定 义 当前 匹配 窗口 的 后 缀 字符 块 和 下 一 
根据 PDF 中 文 文本 编码 具有 四 个 字符 组 成 一 个 汉字 的 。 个 匹配 窗口 的 前 级 的 字符 块 组 成 长 度 为 B 的 新 字符 块 为 HB 。 


特点 ,在 预 处 理 阶段 , 初始 化 SHIFT 哈 希 表 时 键 的 取 值 可 以 ”在 预 处 理 阶段 ， 将 所 有 非 最 短 模式 串 的 字符 块 HB 加 入 到 布 
相隔 四 个 单位 。 此 外 ， 将 Wu-Manber 算法 的 SHIFT 表 默 认 ” 隆 过 滤器 中 。 在 匹配 阶段 ， 当 检测 到 可 能 出 现 匹配 时 ， 在 查 
跳 转 值 ( 最 大 跳 转 值 》， 即 当 文 本 串 中 的 字符 块 没有 出 现在 。 找 PREFIX 和 HASH 表 之 前 计算 字符 块 HB 是 否 在 布 隆 过 滤 
任何 模式 串 中 时 的 SHIFT 跳 转 值 ， 从 m-B+1 改 为 m-B+4。 器 之 中 ， 如 果 存 在 则 进行 精确 校 验 ， 否 则 直接 根据 JUMP[H] 
在 匹配 阶段 ,精确 校 验 结束 后 的 跳 转 值 ， 在 Wu-Manber 算法 ”来 跳 转 。 
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布 降 过 滤器 可 以 快速 地 检索 一 个 元 素 是 否 在 集合 中 ， 它 2. while index < text len do 

的 优点 是 时 间 和 空间 效率 都 远 超 同类 的 算法 ,但 是 它 也 存在 3. block_hash—HashCode(text+index-B,B) 
假 阳 性 误 判 的 缺陷 。 假 阳性 误 判 ， 即 布 隆 过 滤器 有 一 定 概率 4. shift_valueSHIFT[block_hash] 
将 不 在 集合 中 的 元 素 误 判 为 在 集合 中 。 假 阳 率 的 计算 如 下 公 5. if shift_value > @ then 
式 (3) 所 示 。 6. index< 二 index + shift_value 

_nk 7. else if not BloomFilter.contains(index,B) then 

f=(1-e 六 G) 8. index<—index + JUMP[block_hash] 
其 中 : n 表示 加 入 布 隆 过 滤器 的 规则 集 数量 ; k 是 布 隆 过 滤器 9. else 
中 哈 希 函数 的 数目 ; s 则 表示 布 隆 过 滤器 中 位 图 的 比特 数量 。 16 . prefix_hash<—HashCode(text+index-m,B) 
上 式 可 以 看 出 ， 适 当地 选择 s 和 kk 的 值 可 以 降低 假 阳 率 。 11. while HASH[prefix_hash] 尖 null do 
从 式 (3) 可 以 推导 出 n、s、k 三 者 的 关系 为 12. find match HASH[prefix hash][id] 
KY 13. end while 
k=(—)In2 (4) : 
n 14. index<—index + JUMP[block_hash] 
8 = 15. end if 
其 中 :二 表示 布 隆 过 滤器 映射 每 个 元 素 所 需 的 比特 位 数 。 为 
16. end while 

和 二 滤器 的 假 阳 性 误 判 ， 本 文选 择 两 个 明显 独立 的 3 和 4 是 改进 算法 和 Wu-Manber 算法 处 理 相 同 实 例 的 
从 希 函数 外: SDBM 和 SAX。SDBM 在 不 同 的 数据 集中 有 结果 。 其 中 模式 集合 是 P={ 新 时 代 、 曾 几何 时 、 算 几何 题目 }， 


很 好 的 差 方 分 布 ，SAX 则 


计算 公式 如 下 : 


SDBM =c+(hash <<6)+(hash <<16)— hash 


SAX =c+(hash <<5)+(hash >> 2) 


3.5 ”改进 算法 描述 


有 高 效 的 移 位 运 


本 文 提 出 的 改进 算法 包括 预 处 理 
理 阶段 主要 包括 根 ] 
所 有 模式 串 匹 配 窗口 的 后 缀 字符 世 
并 根据 匹配 窗口 的 前 经 
符 块 构造 SHIFT 表 ， 最 后 


隆 过 滤器 (Bloom Filter)。 图 
部 分 代表 长 度 为 m 的 匹配 窗口 ， 
PREFIX 和 JUMP 表 。 表 中 index 表示 由 
值 ，shift 和 skip 都 表示 跳 转 值 
人 HB 字符 块 ， 月 


LLI 


算 速度 ， 两 者 的 


(5) 


(6) 


和 扫描 匹配 阶段 。 预 处 
据 模 式 集 计算 最 短 模 式 串 长 度 m 值 , 利用 


构造 HASH 和 JUMP 表 ， 


罗 》>>》> 


{X, Y, Z}< 


2 是 预 处 理 


| 3.4 节 提 出 的 HB 


爱 字 符 块 构造 PREFIX 表 以 及 非 后 级 字 


字符 块 构造 布 


的 示意 


图 。 其 中 灰色 


| | 


WY 


ee 


OOIO 


Bloom Filter 


index 


shift 


SFIFT table 


Fig.2 Schematic diagram 


习 描 匹配 阶段 会 利 


图 2 改 间 


的 前 级 组 成 的 长 度 为 B 


度 为 m 的 [ 


若 验 通过 则 进行 PREFIX 和 HASH 表 的 类 


L 配 窗口 


跳 过 JUMP[H] 的 值 。 


算法 1 


扫 


文本 匹配 算法 


法 预 处 理 示 意图 
of improved algorithm preprocessing 

j 预 处 理 生成 的 四 张 哈 希 表 以 及 布 隆 
算法 1 的 伪 代 码 是 对 该 阶段 的 
向 右 移动 ， 
后 级 长 度 为 B 的 字符 块 为 二， 则 判断 SHIFT[H]>0 时 
SHIFT[H] 的 值 ， 否 则 对 字符 块 英 的 后 级 和 下 
的 字符 块 HB 进行 布 隐 


用 于 计算 SHIFT、HASH、 
字符 块 计算 出 的 哈 希 
，id 代表 一 个 模式 串 的 编号 。 
于 初始 化 布 隆 过 滤器 。 


index|vector 


a 


index| i 


SH table 


index| skip 


JUMP table 


描述 。 


眼 设 当 


前 匹配 窗口 的 


1. index—m-1, text_len<len(text) 


青 确 校 验 9 否则 直 放 


PREFIX table 


匹配 过 程 中 始 


直接 跳 
匹配 窗口 
条 过 滤器 校 验 ， 


在 某 PDF 中 用 CID 编码 转换 后 P={079e85h679c1 、 
3f89463d8a09237f、293b463d8a091c63 73a2} 。 由 此 可 知 ， 最 
短 模式 串 长 度 m=12，B=8， 预 处 理 阶段 各 表 项 的 取 值 如 图 3 
所 示 。 


SHIFT JUMP 
079e84h6 | 4 079e84h6 | 4 
84h679cl | 0 3f894636 | 4 Bloom Filter 
3f89463d | 4 2936463d | 4 8a09237f | 1 
| sao91063 | 1 
463d8a09 | 0 84h679cl | 4 
2936463d | 4 463d8a09 | 4 
玉 8 六 8 
图 3 改进 算法 预 处 理 阶段 例子 


MES 3 Example of ee ee Preprocessing 


31 | 9f47 Te 463d Fs 8a09 9 465c To Teane 】 二 ] 
了 2 


图 4 改进 算法 扫描 匹配 阶段 例子 
Fig.4 Example ofimproved algorithm scan matching 

图 4 显示 了 改进 算法 扫描 匹配 阶段 的 过 程 。 当 改进 算法 
计算 到 匹配 窗口 字符 463d8a09 在 SHIFT 表 中 对 应 值 为 0 时 ， 
不 会 立即 进行 精确 校 验 ， 而 是 检测 当前 匹配 窗口 后 缀 字符 块 
和 下 一 个 匹配 窗口 前 级 字符 块 组 成 的 长 度 为 B 的 字符 块 
8a09465c 是 否 在 布 隆 过 滤 嚣 中， 检测 失败 后 文本 向 后 移动 
JUMP[463d8a09]=4 个 距离 ， 继 续 检 查 直到 文本 结束 。 

在 这 个 例子 中 , 相 比 于 Wu-Manber 算法 ,改进 算法 的 平 
均 跳 跃 距离 (5.6 次 ) 大 于 WM 算法 的 平均 跳跃 距离 (2.8 次 )， 
并 且 改 进 算 法 避免 了 进行 一 次 精确 校 验 ， 从 而 加 速 了 匹配 六 
进程 。 由 此 可 知 ， 改 进 算法 在 处 理 中 文 PDF 文本 时 ， 当 最 短 
模式 串 长 度 较 长 且 各 个 模式 串 中 存在 相同 前 后 缀 时 ， 改 进 算 
法 有 具有 跳跃 距离 大 和 精确 校 验 次 数 少 的 优势 ， 从 而 使 匹配 的 
效率 更 高 。 


4 ”实验 评估 


本 文 的 实验 评估 除了 对 算法 整体 的 匹配 速率 进行 对 比 之 
外 ,还 考虑 了 Wu-Manber 算法 中 精确 匹配 成 功率 (MSR) 和 
哈 希 表 跳 转 率 (HSR) 的 比较 。 本 文 将 匹配 窗口 右 端 字 符 块 
定义 为 H, SHIFT[H]>0 以 及 被 布 隆 过 滤器 拦截 而 直接 跳 转 的 
次 数 记 为 SkipCount，SHIFT[H]=0 时 进入 精确 匹配 的 次 数 记 
为 MatchCount, 成功 匹 配 到 模式 串 的 次 数 记 为 SuccessCount， 
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则 精确 匹配 成 功率 (MSR) 的 和 哈 希 表 跳 转 率 CHSR) 的 计 图 7~9 是 算法 整体 匹配 速度 的 仿真 。 实 验 中 模式 串 共 有 
算 公 式 如 式 (7) (8) 所 示 。 10 000 条 ， 模式 串 与 文本 串 的 占 比 为 17.62%。 由 图 可 见 ， 使 
MSR= SuccessCou nt 0) 用 本 文 提出 的 改进 算法 相 比 于 其 他 算法 在 PDF 文本 的 匹配 

MatchCount 上 有 更 高 的 性 能 。 当 最 短 模式 串 长 度 为 12 时 , 本 文 提出 的 改 

HSR SkipCount (8) 进 算 法 在 模式 串 规模 为 万 级 时 的 匹配 速度 和 SOGOPT 算法 

SkipCount + MatchCount 相差 不 大 , 但 相 比 于 WM 和 QWM 算法 匹配 速度 可 以 提升 大 

于 Wu-Manber 算法 中 在 进入 精确 匹配 后 可 能 出 现 误 、 约 为 20% ~40%。 当 最 短 模式 串 长 度 较 长 时 ， 由 于 模式 串 所 


携带 的 信息 更 多 ， 本 文 提出 的 改进 算法 中 双重 哈 希 跳 转 和 布 
隆 过 滤器 的 作用 得 以 体现 ， 即 匹配 过 程 中 跳 转 幅度 更 大 ， 精 


匹配 而 减缓 匹配 性 能 ， 所 以 MSR 的 值 越 高 说 明 算 法 效率 越 
好 。 哈 希 表 跳 转 率 高 则 表明 算法 的 哈 希 表 访 问 率 低 ， 即 哈 希 


计算 的 次 数 少 ， 所 以 HSR 的 值 越 高 说 明 算法 的 时 间 效 率 越 好 。 确 校 验 次 数 更 少 ,从 而 使 得 匹配 速度 开始 明显 优 于 其 他 算法 ， 

4.1 实验 数据 和 实验 环境 尤其 当 模 式 串 规模 增 大 时 匹配 速度 更 是 达到 QWM 和 WM 算 

本 文 使 用 的 实验 软 硬 环 境 是 : Intel C612 E5-2600v4 CPU ”法 的 一 们 以上 ,而 SOGOPT 算法 随 着 最 短 模式 串 长 度 和 模式 

@ 3.20 GHz 16 核 ， 内 存 32 GB; 操作 系统 为 Centos 6.6; 内 串 规模 的 增 大 ， 它 采用 的 分 组 规约 受到 限制 而 造成 精确 校 验 
次 数 增多 ， 导 致 其 算法 效率 有 所 下 降 。 


核 版 本 是 3.10.0-123. e17.x86_64。 程 序 代码 使 用 C++ 语言 编 
写 ，g++ 5.4.0 编译 ， 单 线程 运行 。 
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本 文 实验 中 选取 的 PDF 文档 包括 100 个 100 KB~100 MB -6- 一 改进 算法 
的 PDF 文件 。 由 于 篇 幅 的 限制 ， 表 3 列 出 了 部 分 实验 样本 。 "| 人 
随后 使 用 PDFBinder 1.2 软件 将 100 个 PDF 文档 进行 合并 ， 08 
构成 大 小 约 500 MB 的 PDF 文件 , 最 后 提取 其 中 的 stream 文 4 六 
本 内 容 用 于 算法 性 能 测试 。 为 了 充分 评估 算法 性 能 ， 实 验 根 "| Sss、 0 
据 PDF 文本 内 容 随机 生成 了 数目 分 别 为 10 000、20 000、 § ol We 
30 000、40 000、50 000、60 000、70 000、80 000 共 8 个 模 站 Te 
式 集合 ， 其 中 最 短 模 式 串 为 12， 最 长 模式 串 为 168。 
表 3 实验 的 部 分 PDF 文档 0.4 上 
Table 3 PDF documents of experiment 
文件 名 文件 大 小 030 15 20 25 30 35 40 45 50 
基于 PDF 文档 的 网 络 学 习 资 源 建设 .pdf 112 KB 最 短 模式 串 长 度 /字符 
PDF1.7 文档 规范 .pdf 397 KB 图 6 模式 串 规 模 为 10 000 时 HSR 对 比 
一 种 改进 的 多 模式 匹配 算法 .pdf 530 KB Fig.6 HSR comparison when pattern string size of 10 000 
LWIP 协议 栈 源码 详解 .pdf 1481 KB 40 T r 
C 和 指针 .pdf 11328 KB asl 一 
Hadoop 权威 指南 .pdf 51930 KB | — 


4.2 实验 结果 及 分 析 

首先 对 上 文 提 到 的 精确 匹配 成 功率 CMSR) 和 哈 希 跳 转 
率 (HSR) 进行 了 测试 。 实 验 选 用 的 模式 集 规 模 为 10 000， 
在 最 短 模 式 串 递增 的 情况 下 对 WM 和 改进 算法 分 别 进行 了 
实验 测试 。 图 5 和 6 是 测试 结果 示意 图 。 从 图 中 可 以 看 出 ， 
改进 算法 的 MSR 和 HSR 相 比 于 传统 的 WM 算法 都 有 较 大 提 
升 ， 这 是 因为 随 着 最 短 模式 串 长 度 的 增 大 ， 布 隆 过 滤器 利用 yr 
模式 串 信 息 而 过 滤 掉 的 无 谓 匹 配 更 多 ， 二 重 哈 希 的 跳 转 次 数 模式 串 数量 /103 

图 7 模式 串 最 短 长 度 为 12 时 匹配 速度 对 比 


和 距离 也 随 之 增 大 ， 所 以 改进 算法 的 MSR 和 HSR 相 比 于 
WM 算法 提升 明显 。 Fig.7 Comparison of matching speed when shortest string length is 12 
1 T T T 40 T T T T T T T T 
-6 一 改进 算法 国 国 以 进 算法 
09 上 一 : 米 一 WM 35 EW SOGOPT | -| 
Wl QW M 
30 上 WM 
0.8 上 个 
8 将 天 
部 07| 三 
[ed 一 20 
or i 4 
0 06| 蓄 : 一 办 一 - 米 、 ee jg 
三 ee iss 二 15 
~ DO Wr 
| 机 “| El] 1o| ] 
了 
0.4 Ca | 5 上 |l 
0 
0.3 . + + 4 10 20 30 40 50 60 70 80 
10 15 20 25 35 40 45 50 


模式 串 数量 /103 
图 8 模式 串 最 短 长 度 为 16 时 匹配 速度 对 比 


Fig.8 Comparison of matching speed when shortest string length is 16 


30 
最 短 模 式 串 长 度 / 字 符 

图 5 模式 串 规模 为 10 000 时 MSR 对 比 

MSR comparison when pattern string size of 10 000 


Fig. 5 
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40 r Tr Tr documents [J]. Computer Applications and Software, 2016, 33 (3): 
ms Ee SOGOPT 308-313.) 
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图 9 模式 串 最 短 长 度 为 20 时 匹配 速度 对 比 
Fig.9 Comparison ofmatching speed when shortest string length is 20 
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在 互联 网 流量 爆炸 的 今天 ，PDF 文件 的 内 容 监 管 和 过 滤 
在 网 络 信息 安全 领域 中 愈 发 重要 。 本 文 分 析 了 Wu-Manber 
算法 在 PDF 文本 匹配 中 的 缺点 和 不 足 ， 并 根据 PDF 内 容 流 
的 编码 规则 , 利用 双重 哈 希 跳 转 和 布 隆 过 滤器 优化 匹配 性 能 ， 
提出 一 种 适用 于 PDF 文本 匹配 的 改进 算法 。 在 真实 数据 中 测 
试 表 明 , 本 文 提出 的 改进 算法 和 其 他 算法 相 比 在 中 文 PDF 文 


审查 中 匹配 效率 更 高 ， 尤 其 在 大 规模 模式 串 的 应 用 环境 中 
性 能 更 佳 。 

前 PDF 文件 的 版 本 更 新 日 益 频 繁 , 内 容 流 的 标签 订 位 

也 在 不 同 版 本 中 有 不 同 的 方式 。 在 今后 的 工作 中 ， 将 研究 不 

同 版 本 PDF 的 中 英文 编码 规范 ， 结 合 本 文 及 其 他 改进 算法 ， 


希望 研究 出 具有 普遍 适用 能 力 的 中 英文 PDF 文本 高 效 匹配 
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